Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
translated by 谷歌翻译
对制造工艺的机器化的需求很大,因此单调劳动。一些需要特定技能的制造任务(焊接,绘画等)缺乏工人。机器人已在这些任务中使用,但是它们的灵活性受到限制,因为它们仍然很难通过非专家编程/重新编程,从而使它们无法访问大多数公司。机器人离线编程(OLP)是可靠的。但是,直接来自CAD/CAM的生成路径不包括代表人类技能的相关参数,例如机器人最终效应器的方向和速度。本文提出了一个直观的机器人编程系统,以捕捉人类制造技能并将其转变为机器人程序。使用连接到工作工具的磁跟踪系统记录人类熟练工人的演示。收集的数据包括工作路径的方向和速度。位置数据是从CAD/CAM中提取的,因为磁跟踪器捕获时的误差很明显。路径姿势在笛卡尔空间中转换,并在模拟环境中进行验证。生成机器人程序并将其转移到真正的机器人。关于玻璃粘合剂应用过程的实验证明了拟议框架捕获人类技能并将其转移到机器人方面的使用和有效性的直觉。
translated by 谷歌翻译
本文报告了基准数据驱动的自动共鸣手势生成的第二个基因挑战。参与的团队使用相同的语音和运动数据集来构建手势生成系统。所有这些系统生成的运动都使用标准化的可视化管道将视频渲染到视频中,并在几个大型众包用户研究中进行了评估。与比较不同的研究论文不同,结果差异仅是由于方法之间的差异,从而实现了系统之间的直接比较。今年的数据集基于18个小时的全身运动捕获,包括手指,参与二元对话的不同人。十个团队参加了两层挑战:全身和上身手势。对于每个层,我们都评估了手势运动的人类风格及其对特定语音信号的适当性。我们的评估使人类的忠诚度与手势适当性解脱,这是该领域的主要挑战。评估结果是一场革命和启示。某些合成条件被评为比人类运动捕获更明显的人类样。据我们所知,这从未在高保真的头像上展示过。另一方面,发现所有合成运动比原始运动捕获记录要小得多。其他材料可通过项目网站https://youngwoo-yoon.github.io/geneachallenge2022/获得
translated by 谷歌翻译
作为在线话语的一部分,科学主题,主张和资源越来越多地辩论,其中的重要例子包括与19岁或气候变化有关的话语。这既导致了重大的社会影响,又增加了对来自各个学科的科学在线话语的兴趣。例如,沟通研究旨在更深入地了解科学信息的偏见,质量或传播模式,而计算方法已提出使用NLP和IR技术提取,分类或验证科学主张。但是,目前跨学科的研究既缺乏对科学相关性的各种形式的强大定义,也缺乏适当的基础真理数据来区分它们。在这项工作中,我们为(a)贡献了一个注释框架和针对推文中在线话语不同形式的科学相关性的相应定义,(b)通过我们的标签框架获得的1261个推文的专家注释的数据集,达到了平均的fleiss kappa $ \ \ \\ Kappa $为0.63,(c)对我们的数据进行培训的多标签分类器,能够以89%的F1检测与科学相关性,并且还能够检测出不同形式的科学知识(主张,参考文献)。通过这项工作,我们旨在为开发和评估可靠的方法以分析科学作为大规模在线话语的一部分而奠定基础。
translated by 谷歌翻译
最新研究建议用学习模型替换现有的索引结构。然而,当前学习的索引往往有许多超级参数,通常不会提供任何错误保证,并且构建昂贵。我们介绍实用的学习指数(Plex)。Plex仅有一个HyperParameter $ \ epsilon $(最大预测错误),并且在构建和查找时间之间提供比最先进的方法在更好的权衡之间。与RadixSpline类似,Plex由样条曲线和(多级)基数层组成。它首先构建一个满足给定$ \ epsilon $的样条曲线,然后对花键点的分布进行ad-hoc分析,以快速调整基数层。
translated by 谷歌翻译